# -*- coding:utf-8 -*-
"""
作者：王凯
日期：2024年06月11日
"""
import requests  # 导入requests模块
import re  # 导入正则表达式模块
head = {"User-Agent": "Mozilla/5.0 "
                     "(Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Mobile Safari/537.36 Edg/125.0.0.0"}  # 设置请求头http://www.people.com.cn/
url = input("请输入目标网址：")  # 目标网址
html = requests.get(url, headers=head)  # 发送请求，获取网页源代码
html.encoding = "GBK"  # 设置网页编码
#  print(html.text)  # 打印网页源代码
regule = r'''<li .*?><a href="http://.*?.html" target="_blank">.*?</a></li>'''  # 定义正则表达式
titre = re.compile(regule)  # 编译正则表达式
urls = titre.findall(html.text)  # 匹配网页源代码中的链接
f = open("F:/pachong/b.csv", 'a', encoding='GBK')  # 打开文件，追加模式
for url in urls:  # 遍历匹配到的链接
    spli = re.split(' target="_blank">', url)  # 按“>”分割链接和标题
    print(spli)
    #  print(spli[0][13:-1]+','+spli[1][:-9])  # 打印标题和链接
    #  f.write(spli[0][13:-1]+','+spli[1][:-9]+'\n')  # 写入文件
#  f.close()  # 关闭文件
